Presto একটি ডিস্ট্রিবিউটেড SQL কোয়েরি ইঞ্জিন, যা বিভিন্ন ডেটা সোর্স থেকে ডেটা একত্রে বিশ্লেষণ করতে সক্ষম। Hive Integration দ্বারা আপনি Hive ডেটাবেসে সংরক্ষিত ডেটার উপর SQL কোয়েরি চালাতে পারেন। Presto এবং Hive এর একত্রে কাজ করার ফলে, আপনি Hive-এ সংরক্ষিত ডেটা দ্রুত এবং কার্যকরভাবে প্রসেস করতে পারবেন, কারণ Presto এর মধ্যে ডিস্ট্রিবিউটেড প্রসেসিং এবং ইন্টারেক্টিভ কোয়েরি এক্সিকিউশনের ক্ষমতা রয়েছে।
এখানে আমরা দেখবো কীভাবে Presto তে Hive এর সাথে সংযোগ স্থাপন করা যায় এবং ডেটা বিশ্লেষণের জন্য কীভাবে কোয়েরি চালানো যায়।
Presto তে Hive সংযোগ করতে Hive Connector ব্যবহার করতে হবে। এটি /etc/presto/catalog/
ডিরেক্টরিতে একটি .properties
ফাইল তৈরি করে কনফিগার করতে হবে।
hive.properties
connector.name=hive
hive.metastore.uri=thrift://<hive-metastore-host>:9083
hive.config.resources=/etc/hadoop/core-site.xml,/etc/hadoop/hdfs-site.xml
hive.s3.aws-access-key=<your-access-key>
hive.s3.aws-secret-key=<your-secret-key>
thrift://<hive-metastore-host>:9083
)।core-site.xml
এবং hdfs-site.xml
।Presto Hive এর সাথে কাজ করার জন্য, Hive মেটাস্টোর এবং HDFS এর সাথে কনফিগারেশন করা প্রয়োজন। Hive মেটাস্টোর সাধারণত Thrift সার্ভিসের মাধ্যমে কাজ করে, যা Hive ডেটাবেস ম্যানেজমেন্টের জন্য ব্যবহৃত হয়।
Hive মেটাস্টোর সার্ভিস চালু করা:
Hive মেটাস্টোর সার্ভিস চালু করতে নিম্নলিখিত কমান্ড ব্যবহার করুন:
hive --service metastore
HDFS কনফিগারেশন ফাইল আপডেট:
HDFS থেকে ডেটা এক্সেস করার জন্য Presto-তে core-site.xml
এবং hdfs-site.xml
কনফিগারেশন ফাইল গুলি সঠিকভাবে কনফিগার করা থাকতে হবে।
এই ফাইলগুলি /etc/presto
ডিরেক্টরিতে রাখুন এবং Presto কনফিগারেশন ফাইলের সাথে সেগুলি রেফার করুন।
নতুন কনফিগারেশন ফাইল তৈরি করার পর, Presto সার্ভার রিস্টার্ট করতে হবে।
cd /opt/presto
bin/launcher restart
এটি সমস্ত পরিবর্তন লোড করবে এবং Presto সার্ভারকে নতুন Hive কনফিগারেশন অনুযায়ী পুনরায় চালু করবে।
Hive এর সাথে সফলভাবে সংযোগ স্থাপন করার পরে, আপনি Presto CLI বা Web UI ব্যবহার করে Hive ডেটাবেসে কোয়েরি চালাতে পারবেন। উদাহরণস্বরূপ:
CLI কোয়েরি উদাহরণ:
presto --server <presto-server>:8080 --catalog hive --schema default
এখানে, --catalog hive
নির্দেশ করে যে আপনি Hive ডেটাবেস থেকে ডেটা এক্সেস করতে চান, এবং --schema default
Hive-এর ডিফল্ট স্কিমা নির্দেশ করে।
SQL কোয়েরি উদাহরণ:
SELECT * FROM hive.default.orders WHERE order_status = 'shipped';
এই কোয়েরিটি Hive ডেটাবেসের orders
টেবিল থেকে order_status
ফিল্টার করে ডেটা ফেরত আনবে।
Presto-র মাধ্যমে Hive ডেটাবেসে সংযোগ স্থাপন করে, আপনি Hive ডেটাসেটের উপর SQL কোয়েরি চালাতে পারবেন এবং ডিস্ট্রিবিউটেড প্রসেসিংয়ের মাধ্যমে দ্রুত ডেটা বিশ্লেষণ করতে পারবেন। Hive মেটাস্টোর, HDFS, এবং S3 এর সঠিক কনফিগারেশন এবং Presto Hive Connector ব্যবহার করে সহজেই এই সংযোগ তৈরি করা সম্ভব। একবার সংযুক্ত হলে, Presto এর সাথে Hive ডেটাবেসে কাজ করা অত্যন্ত দ্রুত এবং কার্যকরী হয়, যা বড় ডেটাসেট বিশ্লেষণে সাহায্য করে।
Read more